机译:基于多功能融合和增量学习的跨多个不重叠摄像机视图的视频对象匹配
机译:具有说话人归一化功能的低复杂度抛物线形嘴唇轮廓模型,用于噪声鲁棒的视听语音识别中的高级特征提取
机译:使用时空和音频功能从视频中识别人类情感
机译:在临时不重叠的音频和视频流中使用口语和语音功能对扬声器进行跨模式匹配
机译:将H.264视频与AAC音频比特流多路复用,在播放过程中多路分解并实现口型同步。
机译:听到(争夺)嘴唇并听到声音:视听交互如何调节双眼竞争中的感知稳定性
机译:通过多流Hmm识别多模式扬声器识别的时间语音和嘴唇信息的使用